home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000178_owner-urn-ietf _Fri Nov 15 16:18:42 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  3KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id QAA19287 for urn-ietf-out; Fri, 15 Nov 1996 16:18:42 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id QAA19092; Fri, 15 Nov 1996 16:16:59 -0500
  3. Received: from ns.alis.com by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA01031  (mail destined for urn-ietf@services.bunyip.com); Fri, 15 Nov 96 16:16:42 -0500
  5. Received: from fyergeau.alis.com ([207.81.28.17]) by genstar.alis.ca (8.7.5/8.7.3) with SMTP id QAA28482; Fri, 15 Nov 1996 16:16:05 -0500 (EST)
  6. Message-Id: <2.2.32.19961115211148.006eb9e0@genstar.alis.ca>
  7. X-Sender: yergeau@genstar.alis.ca
  8. X-Mailer: Windows Eudora Pro Version 2.2 (32)
  9. Mime-Version: 1.0
  10. Content-Type: text/plain; charset="iso-8859-1"
  11. Date: Fri, 15 Nov 1996 16:11:48 -0500
  12. To: Ron Daniel <rdaniel@acl.lanl.gov>
  13. From: Francois Yergeau <yergeau@alis.com>
  14. Subject: Re: [URN] URI internationalization
  15. Cc: urn-ietf@bunyip.com, uri@bunyip.com
  16. Content-Transfer-Encoding: quoted-printable
  17. Sender: owner-urn-ietf@services.bunyip.com
  18. Precedence: bulk
  19. Reply-To: Francois Yergeau <yergeau@alis.com>
  20. Errors-To: owner-urn-ietf@bunyip.com
  21.  
  22. [Cross-posted to URI list, from URN-IETF list]
  23.  
  24. =C0 09:05 15-11-96 -0700, Ron Daniel a =E9crit :
  25. >I think I18N for URLs is a more difficult problem than it has been for
  26. >URNs. We have a large number of existing URLs in a variety of character
  27. >sets.
  28.  
  29. Well, no, it appears we don't really have that.  I made a search for
  30. non-ASCII URLs last spring (both 8-bit octets and %XY with X>=3D8), and f=
  31. ound
  32. very few out on the Web (cf.
  33. <http://www.alis.com:8085/~yergeau/conf/www5/robot.en.html>).  Less than
  34. 0.25% in fact, and then some were typos (divide signs instead of tilde, f=
  35. or
  36. instance) that didn't work until corrected by hand.
  37.  
  38. Furthermore, compatibility is made easier by the fact that UTF-8 data can=
  39.  be
  40. quite reliably recognized as such.  Given a UR*, a server can test it for
  41. UTF-8 validity; if it fails, it's some 'old' UR* in some encoding other t=
  42. han
  43. UTF-8, the server can process as it did before and nothing is broken; if =
  44. it
  45. passes, just process as UTF-8.  A little experimentation (need more) show=
  46. s
  47. that false positives are unlikely, provided one takes care of 7-bit
  48. ISO-2022-like encodings that look like ASCII (and thus UTF-8) but are not.
  49. As for complexity, a UTF-8 validator fits in about 20 lines of C.
  50.  
  51. >While I18N for URLs is a legitimate issue, it is not an issue for the
  52. >URN-WG (IMHO). The URI list is still alive, that might be the proper
  53. >place to begin discussions.
  54.  
  55. Agreed, I cross-posted there.  Please limit replies to the URI list.
  56.  
  57. Regards,
  58.  
  59. --=20
  60. Fran=E7ois Yergeau <yergeau@alis.com>
  61. Alis Technologies Inc., Montr=E9al
  62. T=E9l : +1 (514) 747-2547
  63. Fax : +1 (514) 747-2561
  64.